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Amrouche Mustapha (2012), Reconnaissance de caracteres, de textes et de 
documents basee sur les modeles de markov caches, Universite Ibn Zohr, Faculte 
des Sciences d’ Agadir. 

Mots des : Reconnaissance automatique de 1’ ecriture, Ecriture Amazighe, 
Tifinagh, Approches syntaxiques, automates a etats finis, Reseaux de neurones. 

Les travaux de recherche que nous avons menes s’interessent au developpement 
des methodes de reconnaissance de caracteres manuscrits et imprimes et de textes 
en tenant compte du contexte par combinaison de niveaux d'analyse et de 
connaissances morphologiques. Nous proposons ainsi deux approches de 
reconnaissance de 1’ ecriture arabe et amazighe. 

En effet et en premier temps, nous avons developpe une approche de 
reconnaissance de caracteres isoles, basee sur les primitives directionnelles 
obtenues a l’aide de la technique des fenetres glissantes a partir de la transformee 
de Hough de caractere. L’ approche concue adopte une modelisation marko vienne 
de type modele discriminant qui consiste a associer un ou plusieurs modeles par 
classe. Selon cette methode, la reconnaissance s’effectue en estimant les 
probabilites d’ emission de la suite d’ observations de la forme a reconnaitre par les 
differents modeles prealablement construits. La forme a reconnaitre est affectee a 
la classe dont le modele qui maximise la probability Cette approche est 
pratiquement utilisee dans le cas ou le nombre de classes a reconnaitre est 
relativement limite (application a vocabulaire limite). Toutefois, elle devient 
couteuse en temps de calcul et espace memoire quand ce nombre depasse le millier, 
puisque chaque classe possede au moins un modele qui lui est propre. Nous 
evaluons le systeme de reconnaissance propose sur des bases de donnees de 
caracteres arabes et amazighes. 

L’ approche proposee donne de bons resultats, bien qu’elle ne tienne pas compte 
des caracteristiques morphologiques de 1’ ecriture etudiee. En effet, nous avons 
e value les performances de notre systeme sur la base des caracteres Tifinaghs 
AMHCD 1 [1] avec deux variantes. La premiere adopte la modelisation discrete des 
probabilites d’ emission, la seconde utilise les HMMs continus. 

A partir de la base AMHCD, nous avons constitue deux parties : apprentissage et 
test. 

Pour la partie apprentissage, nous avons 17160 exemples de caracteres, soit 2/3 de 
la base AMHCD ; pour la partie test, 8580 exemples caracteres, soit 1/3 de la base 
ladite base. Avec la modelisation discrete, nous avons obtenu un taux de 
reconnaissance de 90, 4%. Dans le cas continu, on precede par une modelisation 
des densites des probabilites par des gaussiennes. Nous avons effectue une serie 
d’ experimentations sur la totalite de la base AMHCD. A l’aide de ces experiences, 


1 Youssef Es Saady, Ali Rachidi, Mostafa El Yassa and Driss Mammass. Article: AMHCD: 
A Database for Amazigh Handwritten Character Recognition Research. International 
Journal of Computer Applications 27(4):44-, August 2011. Published by Foundation of 
Computer Science, New York, USA. 
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nous avons evalue le taux de reconnaissance de notre approche en fonction de 
nombre d’etats par modele HMM et de nombre de gaussiennes. En effet, nous 
avons utilise cinq topologies qui varient entre 6 et 14 etats pour etudier F influence 
de ces parametres sur les performances pour une modelisation des emissions par 
une seule ou deux composantes gaussiennes. Le tableau ci-dessous presente les 
resultats obtenus sur cette base. 


Nombre d’etats 

6 

8 

10 

12 

14 

Nombre de gaussiennes 

1-2 

1-2 

1-2 

1-2 

1-2 

Taux de reconnaissance 

96,21% 

96, 56% 

96, 88% 

97, 38% 

97, 89% 


Dans un second temps, nous avons propose une deuxieme methode pour la 
reconnaissance automatique hors ligne de caracteres Tifinaghes imprimes. La 
methode proposee est basee sur un chemin discriminant (DP-HMM) operant sur un 
vocabulaire de base forme de differents graphemes fondamentaux. Le vocabulaire 
est genere en se basant sur les caracteristiques morphologiques de la graphie 
amazighe. Un seul modele HMM global construit et entraine sur les elements du 
lexique propose par des primitives structurelles et geometriques. Chaque chemin au 
long de ce treillis represente une sequence de segments, qui constitue un caractere 
de F alphabet Tifinaghe. Pour ce faire, les caracteres d’ entrees sont pre-classes en 
deux groupes (forme circulaire et non circulaire). Par la suite, ils sont decrits par 
leurs points d’interets et leurs segments. La reconnaissance s’effectue en decodant 
dynamiquement le chemin optimal suivant le critere de maximum de 
vraisemblance. 

Les taux obtenus ont montre la robustesse de F approche proposee. En effet, pour 
valider le systeme propose, nous avons effectue des experimentations significatives 
a l'aide de Toolkit (HTK) sur la totalite de la base de donnees de patterns de la 
graphie amazighe 2 (BD1). Nous avons constitue, a partir de cette base, deux 
ensembles distincts de donnees, un ensemble A (A=2/3) pour l’apprentissage et un 
ensemble B (B=l/3) pour les tests. 

Plusieurs tests ont ete effectues pour evaluer le taux de reconnaissance du systeme 
en fonction de nombre d’etats et de nombre de melange de gaussienne. Par ailleurs, 
nous avons effectue les premiers tests sur toute la base de patterns de la graphie 
amazighe (BDl : contient 19437 caracteres multi fonts c’est-a-dire. 627 
echantillons x 31 classes). Le Tableau ci-dessus presente les resultats obtenus de 
ces tests sur la base BDl, en utilisant les modeles mono-gaussiens, les modeles a 
deux gaussiens et les modeles a trois gaussiens. 


Nombre d’etats 

3 

5 

Nombre de melange de gaussienne 

1-2-3 

1-2-3 

Taux de reconnaissance 

99, 38% 

99,72% 


2 Y. Ait Ouguengay, M. Taalabi (2009), « Elaboration d'un reseau de neurones artificiels 
pour la reconnaissance optique de la graphie amazighe: Phase d’apprentissage », Syst ernes 
intelligents-Theories et applications, Paris : Europia, cop. (impr. au Maroc). 
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Essaady Youssef (2012), Contribution an developpement d'approches de 
reconnaissance automatique de caracteres imprimes et manuscrits, de textes et de 
documents Amazighes, Universite Ibn Zohr, Faculte des Sciences d’ Agadir. 

Mots cles : Modeles de Markov caches, reconnaissance de l’ecriture manuscrite et 
imprimee, primitives structurelles et directionnelles, transformation de Hough. 

Cette these a pour objet principal la reconnaissance automatique hors ligne de 
l’ecriture amazighe. Dans ce cadre, nous avons d’abord construit une base de 
donnees, nomee AMHCD, de caracteres amazighes manuscrits composes de plus 
de 25.000 caracteres isoles ecrits par 60 scripteurs differents. Cette base a ete 
utilisee pour evaluer et tester les resultats de nos travaux. Elle est destinee aussi a 
servir d'autres chercheurs dans le domaine de la reconnaissance de l’ecriture 
amazighe manuscrite. 

Ce travail de recherche propose deux approches de reconnaissance automatique de 
l’ecriture amazighe qui ont contribue a ameliorer les performances. La premiere 
approche est syntaxique ; elle utilise des automates a etats finis avec des primitives 
structurelles pour reconnaitre les caracteres amazighes imprimes. Elle s’interesse a 
la forme du caractere tifinagh qui est compose de primitives structurelles telles que 
des segments, des points et/ou des petits cercles. Apres les pretraitements, des 
algorithmes appropries permettent de construire la chaine du codage de Freeman 
representant le caractere en entree. La chaine est utilisee dans 1' entree de l'automate 
maximal canonique, qui reconnait tous les caracteres amazighes segmentes pour 
decider la classe d’appartenance du caractere. Cet automate est construit a partir 
des automates specifiques de chacun des caracteres amazighes imprimes. Sur une 
base de 630 caracteres amazighes imprimes isoles, les resultats experimentaux 
montrent la solidite de l’approche. Sur 630 caracteres, 589 ont ete reconnus, soit un 
taux de reconnaissance de 93,49%. Les erreurs de reconnaissance proviennent de la 
forme de certains caracteres non reconnus dont le squelette comporte plus des 
segments non orthogonaux. La limite de cette approche est qu’elle ne traite pas les 
caracteres circulaires. De plus, les caracteres amazighes manuscrits ne peuvent etre 
pris en compte par cette approche. 

Afin de remedier a ces limites, nous avons developpe un deuxieme systeme de 
reconnaissance de l'ecriture amazighe base sur la ligne centrale horizontale du 
caractere. Ce systeme est base sur une approche neuronale qui utilise un reseau de 
neurones multicouches comme classifieur. Apres des pretraitements sur 1’ image 
d’ entree, le texte est segmente en lignes et puis en caracteres isoles. Les positions 
des lignes centrales horizontales du caractere sont utilisees pour obtenir un 
ensemble de caracteristiques independantes et dependantes a ces lignes. Ces 
caracteristiques sont liees aux densites de pixels et sont extraites sur les images 
binaires des caracteres en se basant sur 1’ utilisation de la technique des fenetres 
glissantes. Le systeme a montre de bonnes performances sur une base de 19437 
paternes amazighes imprimes et sur 20150 caracteres amazighes manuscrits de la 
base AMHCD. La base des paternes imprimes utilisee contient a peu pres vingt 
mille patterns. II s’agit d’une base des patterns de differentes fontes amazighes et 
de tailles variees. Elle contient au total 12 polices de caracteres et les tailles du 10 
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points au 28 points pour chaque modele. Les patterns sont fournis sous forme 
d’ images bitonales de tailles variables. 

Une amelioration de ce systeme a ete proposee en integrant d'autres 
caracteristiques basees sur la ligne centrale verticale du caractere. Cette 
amelioration a donne de bons resultats. En effet, pour la base des patterns imprimes, 
le taux de reconnaissance est 98,49% lors de l'integration des caracteristiques 
basees sur la position de la ligne centrale horizontale et augmente a 99,28% lors de 
l'ajout des caracteristiques basees sur la position de la ligne centrale verticale. Pour 
la base AMHCD de caracteres amazighes manuscrits, le taux augmente de 92.23 % 
a 96.32 % lors de l'ajout des caracteristiques basees sur la position de la ligne 
centrale verticale du carctere. Les causes d'erreurs sont principalement dues a une 
grande similarity morphologique entre certains caracteres amazighes et, parfois, sur 
des fontes differentes. 
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